Recherche d'information orientée contenu dans les documents XML par agrégation partielle des sources de pertinence
نویسندگان
چکیده
La recherche d’information (RI) orientée contenu dans les documents semistructurés de type XML met en relation un besoin en information exprimé sous forme d’une requête sur le contenu recherché (liste de mots-clés) et une collection de document XML. Le système de recherche doit répondre en retournant non pas des documents entiers, mais juste des fragments de documents (des éléments XML) pertinents. Les éléments XML à restituer ne doivent pas seulement contenir l’information pertinente mais doivent être aussi d’un bon niveau de granularité. C’est-à-dire des éléments spécifiques et exhaustifs. La coexistence de l’information de structure et de contenu dans les documents XML et les spécificités liées à la recherche d’information dans ces documents font qu’une multitude de sources de pertinence hétérogènes et ayant des échelles de valeurs très variables peuvent être considérées dans la sélection des éléments pertinents et dans leur classement. Nous proposons une approche de recherche d’information orientée contenu dans les documents XML où le processus de recherche est guidé plus par la comparaison des éléments XML entre eux que par l’estimation de leurs scores de pertinence.
منابع مشابه
Modèle de recherche contextuelle orientée contenu pour un corpus de documents XML
RÉSUMÉ. Dans le cadre de corpus de documents XML, la recherche par mots-clés reste le moyen le plus utilisé pour un utilisateur dont le besoin d'information est vague, ou encore parce qu'il ne connaît pas précisément la structure des documents. Dans cet article nous présentons notre approche de recherche de nœuds pertinents à une requête orientée contenu "Content Only" composée de simples mots ...
متن کاملRecherche approchée d'information dans une base de documents semi-structurés
RÉSUMÉ. Nous proposons des algorithmes dédiés à l'indexation et à la recherche approximative d'information dans les bases de données hétérogènes semi-structurées XML. Le modèle d'indexation proposé est adapté à la recherche de contenu textuel dans les contextes XML définis par les structures d'arbres. Les mécanismes de recherche approchée mis en œuvre s’appuient sur une distance de Levenshtein ...
متن کاملPropagation de pertinence et exploitation du texte ancre des liens et de la balise titre pour améliorer la recherche dans les documents XML (C)
RÉSUMÉ. L’exploitation des liens dans les documents XML, ne permet pas uniquement la restitution des éléments pertinents répondants à une requête utilisateur, inaccessibles par une recherche classique, mais aussi, le réordonnancement des éléments déjà retrouvés lors de cette recherche. Dans ce papier, nous proposons non seulement de propager le score de pertinence des documents restitués par un...
متن کاملModèle de recherche d'information structurée basé sur la relaxation de requêtes
RÉSUMÉ. Cet article présente un modèle pour la recherche d’information sur des documents XML basée sur la comparaison d’arbres, en utilisant le principe de relaxation de requêtes. Les requêtes et les documents sont représentés par des arbres étendus. Un arbre étendu est construit à partir de l’arbre original, avec la pondération des liens virtuels entre chaque nœud et ses descendants indirects,...
متن کاملRecherche d'information XML utilisant un principe de vote
RÉSUMÉ. Cet article décrit une approche pour la recherche d’information dans des collections de documents XML. Cette approche utilise une méthode de vote pour déterminer les éléments XML répondant à une requête. Une requête peut combiner des informations sur le contenu recherché, sur la granularité des éléments recherchés et sur les éléments structurels associés aux concepts recherchés. La méth...
متن کامل